查看原文
其他

研究速递 | AI真的可以算命?!科学家利用生活事件预测人生

图灵财经 图灵财经
2024-09-16

点击蓝字 关注我们


研究速递

Using sequences of life-events to predict human lives

作    者   :Savcisens,Eliassi-Rad等

来源:nature computational science


摘要

我们以一种与语言具有结构相似性的方式来表示人类生活,并利用这种相似性来调整自然语言处理技术,以根据详细的事件序列来研究人类生活的演变和可预测性。我们通过利用丹麦多年来可用的综合注册数据集来实现这一点,该数据集包括与健康、教育、职业、收入、地址和工作时间相关的生活事件信息,并以日度频率记录。我们在单个向量空间中创建生活事件的嵌入,表明该嵌入空间是稳健且高度结构化的。我们的模型能够预测从早期死亡率到个性细微差别的各种结果,其表现远远优于最先进的模型。使用解释深度学习模型的方法,我们探索算法以了解促成预测的因素。我们的框架使研究人员能够发现影响生活结果的潜在机制以及个性化干预的相关可能性。

研究背景

我们生活在一个由算法驱动的人类行为预测时代。这些预测范围广泛,从全球和人口层面的预测(社会投入大量资源来预测全球变暖或传染病传播等现象),一直到我们在使用社交媒体时不断涌现的个体微观预测,这些预测塑造了我们的现实和行为。然而,当涉及到个人生活结果时,情况就更加复杂了。

正在经历“人类预测时代”的主要原因是海量数据集和强大的机器学习算法的出现。在过去十年中,机器学习通过访问越来越大的数据集,实现了越来越复杂的模型,彻底改变了图像和文本处理领域。语言处理发展尤为迅速,Transformer 架构已被证明能够成功捕捉大量非结构化单词序列中的复杂模式。但由于缺乏大规模数据,Transformer 模型尚未应用于产业以外的多模态社会经济数据。

我们的数据集规模使我们能够构建个人生活轨迹的序列级表示,详细描述每个人如何随时间而变化。我们可以观察个人生活在各种事件类型的空间中如何演变(有关心脏病发作的信息与加薪或从城市搬到农村的信息混杂在一起)。每个序列内的时间分辨率和序列总数足够大,因此我们可以有意义地应用基于 Transformer 的模型来预测生命结果。这意味着表征学习可以应用于一个全新的领域,以发展对人类生命进化和可预测性的新理解。

方法概述

我们将个人生活的进展表示为“生活序列(life-sequences)”。生活序列是根据丹麦国家登记册中的劳动和健康记录构建的,其中包含大约六百万丹麦公民的详细数据。“劳动”数据集包括有关收入的记录,例如工资、奖学金、工作类型、行业、社会福利等。“健康”数据集包括有关访问医疗保健专业人员或医院的记录,并附有诊断、患者类型和紧急程度。生活序列随着时间的推移而发展,并提供具有高时间频率的生活事件的丰富信息。我们的完整数据集从2008年到2020年,包括所有生活在丹麦的个人,但为了下面讨论的分析,我们对数据集进行了筛选,重点关注2008 - 2016年期间和一个年龄有限的个人子集。

传统上,原始时间数据流带来了巨大的方法论挑战,例如不规则的采样率、稀疏性、特征之间的复杂交互以及大量的维度。传统的时间序列分析方法变得繁琐,因为它们难以扩展、不灵活并且需要大量的预处理。Transformer 方法使我们能够避免手工制作特征,而是以利用与语言的相似性的方式对数据进行编码。此外,Transformer 非常适合表示生活序列,因为它们能够压缩上下文信息并考虑时间和位置信息。本文将我们的 Transformer 架构称为 life2vec。

当我们建立生活序列时,每类离散特征和离散化的连续特征都会形成一个词汇表,从这个意义上说,我们可以创建一种合成语言。这个词汇表——连同时间编码——使我们能够将每个生活事件(包括其详细的限定信息)表示为由合成词或“概念标记”组成的“句子”。我们为每个事件附加两个时间指标:一个指定事件发生时个人的年龄,另一个捕获绝对时间。

因此,我们的合成语言可以捕捉类似这样的信息:“2012 年 9 月,弗朗西斯科在埃尔西诺城堡担任守卫,获得了两万丹麦克朗”或“赫敏在寄宿中学三年级时选修了五门选修课”。使用这种方法,我们可以形成个人生活序列,使我们能够对个人生活中的事件进行详细信息编码,而不会牺牲原始数据的内容和结构。

预测早期死亡率

我们估计了一个人在 2016 年 1 月 1 日之后的四年内存活的可能性(仅使用截至 2016 年的数据进行训练以避免信息泄露)。死亡率预测是统计建模中经常使用的任务,它与其他健康预测任务密切相关,因此需要 life2vec 来模拟个人健康序列的进展以及劳动史,以成功预测正确的结果。具体来说,给定一个序列表示,life2vec 推断出一个人在我们的序列结束后(2016 年 1 月 1 日)存活四年的概率。我们专注于对年龄在 35-65 岁之间的年轻人群进行预测,这个年龄段的死亡率很难预测,因为数据中包含结果未知的人(即移民和失踪人员)。因此,我们使用正向无标记学习,它为模型评估提供了修正的性能指标。

下图显示了 life2vec 与一系列基线模型(精算生命表、逻辑回归、前馈神经网络和循环神经网络 (RNN))的性能。使用修正的马修斯相关系数(C-MCC)来说明模型的性能,该系数调整了未标记样本的 MCC 值。life2vec 的平均 C-MCC 得分为 0.41(95% 置信区间 [0.40, 0.42]),其性能比基线高出 11%。

在八年期间,我们的研究人群在年龄和性别方面存在差异。个人可能拥有很多或很少的 token。为了了解这种异质性的影响,下图 b 细分了各种子组的表现:基于年龄和性别的交叉组,以及基于序列长度的组。在年龄和性别方面,该模型在较年轻的人群和女性人群中表现更好。此外,序列长度(序列中生活事件数量的代理)对模型的性能没有实质性影响(下图b)。

个人的特定任务表征

当我们使用 life2vec 进行预测时,我们会建立一个特定于预测任务的新向量空间。在这个向量空间中,每个生活序列都是对预测任务最有用的信息概要。人物概要是一个单一向量,它囊括了相对于某个预测的个人整个生活事件序列的基本方面。我们将重点关注死亡可能性情况的人员概要,但与居住地区或大学选择变化等相关的人员概要将有很大不同。

相对于死亡率预测,该模型将个体按从低到高的估计死亡率概率连续排列(下图 d 中的点云)。在下图中,我们用紫色菱形表示真实死亡,预测的可信度通过点的半径表示(例如,半径较小的点表示可信度较低的预测)。此外,估计的概率使用从黄色到绿色的彩色图显示。我们放大两个区域:区域 1(a-c),显示“生存”结果概率较高的区域,区域 2(e-g),显示“死亡”结果概率较高的区域。我们看到,尽管区域 2 中大多数是老年人,但我们仍然看到很大一部分年轻人(下图 f),并且它包含很大一部分真实目标(下图 g)。区域 1 的结构则大体相反,其中年轻人居多,但老年人也占相当多(下图 b),实际死亡人数只有一人(下图 c)。当我们查看低概率区域的实际死亡人数时,我们发现最接近区域 1 且位于该区域的五起死亡事件的死因如下:两起事故、脑恶性肿瘤、宫颈恶性肿瘤和心肌梗塞。我们认为,所有这些都是难以根据生活事件序列预测的死亡原因。

下图 h、i 显示了与死亡率预测任务相关的几个标签的概念敏感度得分。我们关注与健康相关的标签,如心理健康、神经系统和寄生虫。同样,我们使用社会经济属性作为标签来衡量模型对主要职业群体和性别的敏感性。图 4h 显示了与预测“生存”相关的标签,图 4i 显示了在我们序列之后的四年内与预测“死亡”相关的概念。接近一的值意味着沿主题方向移动表示沿标签方向移动会增加特定结果的概率,接近零的值表示对结果没有影响。如果我们随机移动,灰色区域就是我们所期望的方向。可以看到,拥有管理职位或高收入的方向会推动模型做出“生存”决策(下图 h),而男性、熟练工人或患有精神疾病则会产生相反的效果(下图 i)。


关注本公众号:图灵财经


时间:2023年11月

编辑:田章功


精彩推荐


研究速递|人与人工智能的协同:组织中的混合问题解决策略
研究速递 | Nature:在大语言模型和人类中测试心智理论
经典重温 | Nature《人工智能时代的科学发现》
研究速递| Science:生成式人工智能生产力效应的实验证据
研究速递|Science:人工智能飞速进步背景下的极端风险管理


更多精彩内容


继续滑动看下一个
图灵财经
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存